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摘要 : [目的 ] 基 于 深度 学 习 和 领域 知识 图 谱 技 术 ， 研 究 TRIZ 分 析 和 矩阵 自动 构建 方法 ， 为 技 
术 创 新 提供 知识 支持 。[ 方 法 ] 首 先 面 向 领域 需求 ， 将 通用 的 “技术 要 素 ” 延 伸 细 化 为 实体 和 
关系 类 别 ， 完 成 领域 知识 图 谱 模 式 层 设计 ; 然后 基于 BERT 预 训练 语言 模型 ,研究 设计 从 专 
利文 献 中 自动 识别 知识 实体 及 关系 的 智能 化 工具 ,实现 实体 关系 自动 抽取 ; 最 后 利用 图 数据 
库 完 成 领域 知识 图 谱 的 构建 ， 基 于 知识 查询 读 取 需要 的 知识 实体 和 关系 ， 实 现 TRIZ 分 析 矩 
阵 的 自动 构建 。[ 结 果 ] 经 实证 验证 ， 本 文 构建 的 面向 薄膜 磁头 技术 领域 专利 的 BERT- 
MH+CRF 实体 识别 模型 Fl 分 数 为 84.93%，BERT-MH+softmax 关系 抽取 模型 Fl 分 数 为 
63.7%。[ 局 限 ] 缺 乏 知识 推理 技术 的 应 用 ,无 法 揭示 实体 间 潜 在 的 知识 关联 ， 构 建 的 TRIZ 分 
析 珑 阵 的 质量 仍 存在 不 足 。[ 结 论 ] 所 提出 的 方法 可 以 实现 TRIZ 分 析 和 矩阵 自动 构建 的 目标 ， 
可 以 为 技术 创新 提供 有 效 的 知识 支持 。 
关键 词 ， TRIZ 分 析 和 矩阵 ;专利 文献 ， 预 训练 技术 ; 实体 识别 ;关系 抽取 
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Abstract: [Objective] Based on deep learning and domain knowledge graph 
technology, study the automatic construction method of TRIZ analysis matrix to 
provide knowledge support for technological innovation. [Methods] First, facing 
the domain requirements, the general “technical elements” are extended and 
refined into entity and relationship categories, and the pattern layer design of 
domain knowledge graph is completed;Then, based on the BERT pre-trained language 
model, research and design an intelligent tool to automatically identify 
knowledge entities and relationships from patent documents, and realize the 
automatic extraction of entity relationships;Finally, the graph database is used 
to complete the construction of the domain knowledge graph, and the knowledge 
entities and relationships are required to read based on the knowledge query, So 
as to realize the automatic construction of the TRIZ analysis matrix. [Results] 
After empirical verification, the Fl score of the BERT-MH+CRF entity recognition 
model for patents in the field of thin-film magnetic head technology constructed 
in this paper is 84.93%, and the Fl score of the BERT-MH+softmax relation 
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extraction model is 63.7%. [Limitations] The lack of application of knowledge 
reasoning technology cannot reveal the potential knowledge associations between 
entities, and the quality of the constructed TRIZ analysis matrix is still 
insufficient. [Conclusions] The proposed method can achieve the goal of automatic 
construction of TRIZ analysis matrix, which can provide effective knowledge 
support for technological innovation. 
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1 引言 


中 国正 从 “制造 大 国 ” 向 “ 智 造 强国 ”战略 转型 ， 以 科技 创新 为 核心 的 创新 
驱动 发 展 战略 已 上 升 为 国家 战略 , 国家 和 企业 对 创新 的 需求 不 断 提高 , 主要 体现 
在 产品 快速 迭代 的 需求 、 技 术 交 又 加 剧 的 需求 和 创新 知识 集中 汇聚 的 需求 。 在 当 
前 的 时 代 背 景 下 ,创新 已 经 不 仅仅 是 依靠 个 人 灵感 而 产生 的 想法 ， 而 更 需要 科学 
的 方法 和 依据 给 予 突破 由。TRIZ 创新 方法 通过 对 专利 大 数据 的 挖掘 分 析 ， 形 成 
了 一 套 指导 人 们 进行 发 明 创新 的 系统 化 的 方法 学 体系 , 可 以 准确 分 析 和 发 现 核心 
问题 ， 提 高 创新 的 效率 与 质量 ， 是 行 之 有 效 的 创新 方法 之 一 。 

系统 相互 作用 分 析 和 矩阵 是 TRIZ 创新 方法 体系 中 实现 功能 分 析 的 核心 技术 。 
系统 相互 作用 分 析 和 矩阵 基于 人 工 方法 从 专利 文献 中 提取 组 件 和 功能 两 类 知识 实 
体 及 对 应 关系 ， 再 建立 矩阵 开展 系统 功能 分 析 ， 指 导 技 术 创 新 。 然 而 ， 面 对 全 球 
科技 快速 进步 迭代 和 专利 申请 量 的 爆炸 式 增长 , 传统 的 系统 相互 作用 分 析 和 矩 阵 也 
面临 知识 要 素 不 足 、 人 工 构 建 速度 慢 、 人 力 成 本 高 等 问题 ， 导 致 利用 TRIZ 创新 
方法 促进 技术 创新 的 效应 偏 低 ， 难 以 满足 国家 和 企业 日 益 增长 的 创新 需求 。 

面 对 上 述 背 景 及 发 展 需求 ， 本 研究 在 TRIZ 创新 方法 的 指导 下 ， 面 向 特定 领 
域 拓展 系统 相互 作用 分 析 和 矩阵 涵盖 的 知识 要 素 , 同时 将 本 文 提 出 的 面向 特定 领域 
且 包 含 更 丰富 知识 实体 和 关系 的 矩阵 定义 为 TRIZ 分 析 算 阵 ， 并 提出 利用 大 数据 
和 人 工 智能 技术 开展 TRIZ 分 析 拖 阵 智能 构建 方法 研究 。 有 具体 的 ， 利 用 BERT 预 
训练 语言 模型 技术 ,从 海量 专利 数据 中 自动 识别 知识 实体 和 关系 , 完成 领域 知识 
图 谱 构 建 ; 面向 具体 需求 ， 基 于 知识 查询 和 知识 推理 ， 从 领域 知识 图 谱 中 自动 读 
取 所 需要 的 知识 实体 和 关系 , 实现 TRIZ 分 析 和 矩阵 的 自动 构建 ,一 方面 解决 TRIZ 
创新 方法 的 知识 供应 问题 ， 另 一 方面 为 TRIZ 创新 方法 的 持续 发 展 和 完善 提供 支 
持 。 

2 研究 现状 

本 文 以 TRIZ 分 析 和 失 阵 智能 构建 为 总 目标 ， 重 点 研究 从 专利 文献 中 自动 抽取 
知识 实体 和 关系 的 技术 解决 方案 。 因 此 ， 本 文 主要 面向 TRIZ 分 析 和 矩阵 的 知识 抽 
取 相 关 研 究 开 展 调研 , 系统 调研 了 通用 的 科学 知识 抽取 方法 和 面向 专利 的 知识 抽 
取 方 法 。 
2.1 科学 知识 抽取 研究 

面向 科学 文献 的 知识 抽取 方法 经 历 了 基于 词典 和 规则 4、 基 于 统计 机 器 学 
习 59、 基 于 深度 学 习 [”0、 基 于 预 训练 语言 模型 的 方法 以 及 综合 性 抽取 的 长 足 发 
展 。2018 年 ，Google 的 研究 人 员 Devlin 等 0 提出 BERT 模型 ，BERT 模型 采用 


双向 的 Transformer Encoder 结构 , 面向 大 规模 公开 语 料 进 行 预 训练 ,得 到 了 表征 
能 力 更 强 的 预 训练 字 向 量 ， 极 大 地 提高 了 模型 的 性 能 。 文 献上 9 应 用 BioBERT 从 
2900 万 篇 PubMed 摘要 中 抽取 生物 实体 , 取得 了 最 优 性 能 。Zhang 等 所 | 在 中 文 临 
床 语料库 上 对 BERT 进行 了 预 训 练 ， 并 将 得 到 的 词典 入 作为 BiLSTM-CRF 模型 
的 输入 特征 , 解决 乳腺 癌 命 名 实体 识别 问题 。 文 献 吃 提出 了 一 个 既 利 用 预 训 练 的 
BERT 语言 模型 又 结合 目标 实体 信息 解决 关系 分 类 任务 的 模型 ， 与 最 新 方法 相 比 
取得 了 显著 改进 。 唐 晓 波 等 05 利 用 BERT 预 训练 语言 模型 ， 搭 建 BERTBiGRU- 
CRF 标注 序列 模型 ， 面 向 金融 文本 语 料 联合 抽取 实体 关系 。 综 上 所 述 ,“ 预 训练 
+ 微调 ”技术 通过 加 入 通用 有 效 的 语言 知识 编码 ， 极 大 地 提升 了 实体 关系 抽取 的 
性 能 表现 。 


2.2 面向 专利 的 知识 抽取 研究 


自 Tsourikov 等 人 的 开创 性 工作 以 来 09, 专利 知识 抽取 已 经 提出 了 多 种 方法 ， 
包括 SAO 方法 、 基 于 本 体 的 方法 、 统 计 机 器 学 习 方 法 等 。 胡 正 银 等 ("基于 SAO 
结构 语义 分 析 与 LDA 聚 类 方法 ， 面 向 专利 文献 识别 通用 的 TRIZ 技术 信息 〈 技 
术 问 题 、 解 决 方案 、 技 术 功 能 、 技 术 效 果 );H.B.Kim 等 上 基于 SAO 方法 抽取 专 
利 中 的 技术 问题 和 技术 方案 实体 ， 李 晓 曼 等 09 基 于 SAO 方法 面向 纳米 肥料 领域 
专利 文献 完成 材料 、 产 品 、 方 法 、 功 效 和 用 途 5 种 实体 的 识别 。 面 向 专利 文献 抽 
取 知 识 实体 及 关系 的 机 器 学 习 模 型 主要 包括 最 大 炉 模 型 SVM 模型 和 CRF 模型 。 
李 卫 超 等 RY 提出 了 一 种 基于 词法 分 析 、 语 法 分 析 和 最 大 人 分 类 模型 的 专利 功能 
信息 抽取 方法 Nanba 等 2 基于 SVM 方法 识别 学 术 文 献 和 专利 中 的 技术 和 效果 
两 类 信息 ; 赖 英 旭 等 ? 结 合 TRIZ 理论 设计 了 水 稳 育 种 方法 本 体 结 构 , 应 用 SVM 
模型 识别 专利 中 的 育种 方法 ， 应 用 CRF 模型 识别 水 稳 品种 。 

从 上 述 调研 结果 中 可 以 看 出 ， 面 向 TRIZ 分 析 和 矩阵 的 知识 抽取 技术 ， 主 要 是 
面向 专利 的 实体 识别 和 关系 抽取 技术 还 远 没 有 成 熟 , 仍 存在 缺乏 标注 数据 集 、 抽 
取 的 专利 知识 类 型 不 足 、 自 动 化 程度 低 、 性 能 有 待 提 高 等 问题 。 因 此 ， 本 文 拟 利 
用 预 训练 语言 模型 技术 改进 面向 专利 的 知识 实体 识别 和 关系 抽取 。 


3 TRIZ 分 析 和 矩阵 智能 构建 方法 设计 


本 研究 提出 的 TRIZ 分 析 和 矩阵 智能 构建 方法 框架 如 图 1 所 示 ， 主 要 由 三 个 模 
块 构成 : 面向 TRIZ 分 析 珑 阵 的 领域 知识 图 谱 模式 层 设计 、 面 向 专利 的 知识 实体 
和 知识 关系 抽取 方法 、 基 于 领域 知识 图 谱 的 TRIZ 分 析 和 矩阵 自动 构建 。 


chinaXiv:202206.00104v1 


面向 TR1Z 分 析 和 矩阵 的 领域 知识 图 谱 模式 层 设计 
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1 TRIZ 分 析 和 矩阵 智能 构建 的 方法 框架 

方法 流程 如 下 : (1) 在 TRIZ 创新 理论 的 指导 下 , 面向 特定 领域 的 知识 需求 ， 
将 语义 TRIZ 中 通用 的 “技术 要 素 ”( 技 术 问 题 、 技 术 方案 、 技 术 功 能 、 技 术 效 
果 ) 延 伸 细 化 为 特定 领域 的 知识 实体 和 关系 类 别 , 完成 领域 知识 图 谐 模式 层 设计 。 
(2) 基于 BERT 预 训练 语言 模型 ， 研 究 设计 从 专利 文献 中 自动 识别 TRIZ 分 析 
和 矩阵 构建 所 需要 的 知识 实体 及 关系 的 智能 化 工具 , 实现 专利 实体 和 关系 的 自动 抽 
取 。(3) 对 知识 实体 和 关系 进行 简单 融合 ,利用 图 数据 库 完 成 领域 知识 图 谱 的 构 
建 ; 面向 具体 需求 ， 基 于 知识 查询 和 知识 推理 ， 从 领域 知识 图 谱 中 自动 查询 和 读 
取 所 需要 的 知识 实体 和 关系 ， 实 现 TRIZ 分 析 和 矩阵 的 自动 构建 。 

上 述 TRIZ 分 析 和 矩阵 智能 构建 方法 框架 提供 了 全 领域 通用 的 方法 流程 和 模型 
架构 ， 明确 了 领域 知识 图 谱 模 式 层 设计 流程 ,搭建 了 通用 的 继续 预 训 练 BERT 模 
型 、 实 体 识别 微调 模型 和 关系 抽取 微调 模型 架构 ,提供 了 标准 化 的 领域 知识 图 谱 
构建 方法 ,在 面向 特定 领域 开展 应 用 研究 时 , 只 需 提供 领域 需求 和 领域 专利 语 料 ， 
即 可 在 上 述 方法 框架 的 指导 下 开展 TRIZ 分 析 和 矩阵 构建 。 


3.1 面向 TRIZ 分 析 算 阵 的 领域 知识 图 谱 模 式 层 设计 


语义 TRIZ 利用 语义 技术 自动 或 半自动 建 模 专利 中 隐 含 的 技术 信息 ， 可 以 有 
效 表 示 “ 技 术 问 题 、 技 术 方 案 、 技 术 功 能 、 技 术 效果 ”等 专利 中 特有 的 技术 知识 
P3]。 本 文 参考 语义 TRIZ 模型 ， 将 TRIZ 分 析 和 天 阵 知 识 模型 中 的 知识 要 素 明 确 为 
技术 问题 、 技 术 方 案 、 技 术 功 能 、 技 术 效 果 4 大 功能 语义 类 型 ， 开 展 领域 知识 图 
谱 模 式 层 设计 ， 具 体 流程 如 图 2 所 示 。 首 先 ， 面 向 特定 领域 开展 需求 分 析 ， 将 
TRIZ 分 析 矩 阵 知 识 模型 中 通用 的 知识 要 素 ( 技 术 问 题 、 技 术 方 案 、 技 术 功 能 、 
技术 效果 ) 延伸 细 化 为 特定 领域 的 知识 实体 和 关系 类 别 ; 在 此 基础 上 建立 知识 实 
体 及 其 关系 与 图 谱 中 知识 节点 和 知识 关系 的 映射 , 制定 统一 的 语义 关系 分 类 规范 ， 
完成 领域 知识 图 谱 模 式 层 设计 ， 用 于 指导 后 续 的 领域 知识 图 谱 构 建 和 TRIZ 分 析 
矩阵 构建 。 
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领域 知识 图 谱 概 念 模型 
图 2 领域 知识 图 谱 模式 层 设计 的 技术 路 线 


面向 不 同 领域 开展 知识 图 谱 模式 层 设计 时 , 由 于 领域 需求 的 多 样 性 和 差异 性 ， 
不 同 领 域 下 技术 问题 、 技 术 方 案 、 技 术 功 能 、 技 术 效 果 所 对 应 的 创新 要 素 也 有 所 
区 别 ， 由 此 形成 特定 领域 的 TRIZ 分 析 窍 阵 知 识 模型 。 后 续 本 文 将 以 薄膜 磁头 技 
术 领 域 为 例 开展 面向 TRIZ 分 析 甜 阵 的 领域 知识 图 谱 模 式 层 设 计 , 详 见 “4.2.1 薄 
膜 磁头 技术 领域 知识 图 谱 模 式 层 设 计 ”。 
3.2 面向 专利 的 知识 实体 和 知识 关系 抽取 算法 设计 
3.2.1 知识 实体 和 知识 关系 抽取 的 技术 路 径 


基于 BERT 预 训 练 语 言 模型 技术 ， 研 究 设计 从 专利 文献 中 自动 识别 TRIZ 分 
析 和 矩阵 构建 所 需要 的 知识 实体 及 关系 的 智能 化 工具 。 知 识 实体 和 知识 关系 抽取 的 
技术 路 径 如 图 3 所 示 , 包括 预 训练 (Pre-train)、 继续 预 训练 (Continual pre-train )、 
微调 (Fine-tuning) 3 个 阶段 。 预 训练 阶段 直接 引入 谷歌 利用 12 层 的 Transformer 
Encoder 在 Wikipedia 和 Book Corpus 语 料 上 训练 得 到 的 原始 BERT 模型 ; 继续 预 
训练 阶段 针对 特定 领域 专利 文献 的 实体 关系 特征 , 利用 领域 未 标注 的 大 规模 专利 
语 料 对 原始 BERT 模型 进行 继续 预 训练 , 使 模型 学 到 更 多 的 专利 句法 结构 知识 和 
特定 领域 知识 ,得 到 特定 领域 的 BERT 词 艇 入 ; 微调 阶段 利用 少量 特定 任务 的 标 
注 语 料 分 别 对 实体 识别 模型 和 关系 抽取 模型 进行 训练 和 调 优 。 本 研究 希望 能 通过 
上 述 技术 路 径 , 一 方面 提升 实体 识别 及 关系 抽取 模型 的 性 能 ， 另 一 方面 减少 微调 
阶段 模型 对 标注 数据 的 依赖 。 
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图 3 知识 实体 和 知识 关系 抽取 的 技术 路 径 
3. 2. 2 BERT 模型 继续 预 训练 


BERT 模型 主要 有 “ 预 训练 + 微调 ”“ 预 训练 + 继续 预 训练 + 微调 ”“ 重 新 预 
训练 + 微调 ”三 种 训练 和 使 用 模式 ( 见 图 4)，ACL2020 Best Paper 提名 奖 论文 
《Don’t Stop Pretraining:Adapt Language Models to Domains and Tasks》P9 做 了 很 
多 语言 模型 预 训练 的 实验 , 认为 在 目标 领域 的 数据 集 上 进行 继续 预 训练 可 以 提升 
预 训 练 语言 模型 在 处 理 该 领域 任务 时 的 效果 。 陈 亮 等 外 通过 对 专利 数据 集 的 对 
比分 析 发 现 , 不 同 技 术 领 域 的 专利 数据 集 之 间 存 在 较 大 差异 ,并 将 专利 全 领域 特 
征 的 词 钦 入 和 特定 领域 特征 的 词 丛 入 进行 了 对 比 , 发 现 特定 领域 的 词 嵌入 在 领域 
任务 中 的 表现 效果 更 好 。 
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4 BERT 模型 的 训练 路 径 


因此 , 本 研究 拟 采 用 “ 预 训练 + 继续 预 训 练 + 微调 ”的 BERT 模型 训练 路 径 。 


针对 特定 领域 专利 文献 的 实体 关系 特征 , 利用 目标 领域 未 标注 的 专利 语 料 对 原始 
BERT 模型 进行 继续 预 训练 ， 使 模型 学 到 更 多 的 专利 句法 结构 知识 和 特定 领域 知 
识 , 从 而 得 到 特定 领域 的 BERT 词 嵌 入 , 以 实现 更 优 的 实体 识别 和 关系 抽取 性 能 。 


3.2.3 基于 BERT-CRF 的 实体 识别 模型 设计 


在 序列 标注 思想 的 指导 下 , 本 文采 用 BERT-CRF 实体 识别 模型 , 模型 架构 如 
图 $ 所 示 。 整 个 模型 架构 由 特征 表示 、 特 征 编码 、 标 签 解码 三 个 部 分 组 成 。 特 征 
表示 步骤 由 BERT 模型 对 输入 的 文字 进行 分 布 式 向 量 表示 。 特 征 编码 步骤 主要 对 
BERT 提供 的 输入 向 量 进行 变换 ， 通 过 线性 层 提 取 句 子 的 语义 特征 ， 将 隐 状 态 序 
列 向 量 维度 转换 为 标注 标签 数量 维度 ,得 到 每 一 个 标注 标签 的 预测 分 值 。 标 签 解 
码 步 又 使 用 CRF 进行 解码 ， 将 BERT 层 提取 到 的 特征 作为 输入 ， 然 后 由 CRF 层 
负责 考虑 上 下 文 标签 的 影响 ， 进 而 得 到 使 得 条 件 概率 最 大 的 实体 标签 序列 。 
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图 5 BERT-CRF 实体 识别 模型 架构 
3.2.4 基于 BERT-softmax 的 关系 抽取 模型 设计 


关系 抽取 采用 多 标签 分 类 的 思想 ， 构 建 BERT-softmax 关系 抽取 模型 。 有 具体 
的 ，BERT 负责 提供 句子 的 词 嵌 入 表示 ， 学 习 句 子 的 语义 特征 ， 而 后 将 学 习 到 的 
语义 信息 接 入 softmax 分 类 器 ， 输 出 关系 分 类 结果 。 利 用 标注 语 料 对 关系 分 类 模 
型 进行 训练 ， 输 入 包含 实体 对 的 句子 ， 输 出 关系 类 别 。 

此 外 ,由 于 本 研究 采用 基于 流水 线 的 实体 识别 和 关系 抽取 方法 , 在 实体 对 生 
成 阶段 会 迭代 生成 大 量 不 存在 关系 的 实体 对 , 这 些 实体 对 会 对 关系 抽取 模型 的 训 
练 产生 干扰 。 为 使 关系 抽取 模型 能 够 更 好 地 学 习 无 关系 实体 对 的 特征 , 在 训练 过 
程 中 ， 本 文 为 不 存在 关系 的 实体 对 分 配 “no _relation” 的 特殊 类 型 ， 作 为 负 样 本 添 
加 到 训练 集 当 中 , 在 训练 过 程 中 与 其 它 关 系 类 型 同等 看 待 ， 以 改善 关系 抽取 模型 
的 性 能 。 
3.3 基于 领域 知识 图 谱 的 TRIZ 分 析 算 阵 自动 构建 


基于 领域 知识 图 谱 的 TRIZ 分 析 和 矩阵 自动 构建 过 程 如 图 6 所 示 ， 包 括 领域 知 
识 图 谱 构 建 和 TRIZ 分 析 矩 阵 构建 两 个 阶段 。 
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图 6 基于 领域 知识 图 谱 的 TRIZ 分 析 和 矩阵 自动 构建 


首先 ， 对 知识 实体 和 知识 关系 的 抽取 结果 进行 简单 融合 ， 通 过 构建 实体 
ID_Name 对 应 表 保 证 每 一 个 实体 都 有 唯一 的 ID 与 之 对 应 ， 利 用 实体 ID 对 相同 
的 知识 实体 进行 合并 ， 对 相同 三 元 组 进行 剔除 。 在 此 基础 上 ,通过 图 数据 库 实现 
实体 数据 和 关系 数据 的 存储 , 将 其 转换 为 数据 库 中 的 节点 和 关系 ,完成 领域 知识 
图 谱 构 建 。 在 利用 Neo4j 图 数据 库 完 成 领域 知识 图 谱 构 建 的 基础 上 面向 具体 需 
求 , 利用 该 图 数据 库 进行 交互 式 查 询 和 关联 化 推理 ,自动 查询 和 读 取 所 需要 的 知 
识 实体 和 关系 ， 实 现 TRIZ 分 析 和 矩阵 的 自动 构建 ， 为 后 续 的 系统 问题 分 析 、 技 术 
功效 分 析 、 技 术 演 化 分 析 、 技 术 路 径 分 析 等 提供 有 效 支 持 ， 加 速 技 术 创 新 。 
4 研究 实证 

计算 机 硬盘 领域 的 薄膜 磁头 能 显著 减少 磁头 和 磁 片 的 距离 ， 增 加 数据 密度 ， 
提高 准确 率 ， 对 我 国 高 性 能 磁 记 录 产 业 的 发 展 具 有 重要 意义 。 因 此 ， 本 文 在 上 述 
领域 通用 的 TRIZ 分 析 和 矩阵 智能 构建 方法 体系 下 ， 以 薄膜 磁头 技术 领域 为 例 开展 
实证 研究 ， 具 体 工作 包括 : 1) 完成 薄膜 磁头 技术 领域 专利 知识 抽取 的 BERT 模 
型 构建 ;， 2) 开展 薄膜 磁头 技术 领域 TRIZ 分 析 和 矩阵 构建 实证 研究 。 


4.1 薄膜 磁头 技术 领域 专利 知识 抽取 的 BERT 模型 构建 
4.1.1 实验 数据 


本 实验 选用 陈 亮 等 23 构 建 的 TFH-2020 数据 集 开 展 薄 膜 磁头 技术 领域 专利 
实体 识别 和 关系 抽取 实验 研究 。TFH-2020 是 面向 硬盘 中 落 膜 磁头 技术 的 带 标注 
的 专利 数据 集 。 该 数据 集 语 料 检 索 自 美国 专利 商标 局 (USPTO )， 由 薄膜 磁头 技 
术 领 域 1010 篇 专利 摘要 构成 ， 共 包含 22742 个 实体 和 17421 个 语义 关系 。 数 据 
集 设置 了 17 种 实体 类 型 规范 和 15 种 语义 关系 类 型 规范 ， 实 体 类 型 包括 : 物质 
流 、 信 息 流 、 能 量 流 、 和 系统、 组件、 属性、 形状、 材料、 状态、 位置、 测量 对 象 、 
值 、 科 学 概念 、 功 能 、 效 果 、 结 果 、 其 它 ， 关 系 类 型 包括 : 实例 、 别 名 、 位 置 关 
系 、 部 分 关系 、 因 果 关 系 、 构 造 、 属 性 、 以 方式、 形成、 比较 、 测 量 、 操 作 、 
产生 、 目 的 。 


4.1.2 BERT 模型 继续 预 训练 实验 


“磁头 ”是 “薄膜 磁头 ”的 上 位 概念 。 考 虑 到 专利 文献 的 数量 ， 本 文 面向 计 
算 机 硬盘 中 的 磁头 领域 开展 BERT 模型 继续 预 训练 实验 。 有 具体 的 ， 获 取 大 量 磁头 
领域 未 标注 的 专利 语 料 , 在 BERT 模型 原 有 参数 的 基础 上 进行 继续 预 训 练 ,使 模 
型 学 到 更 多 的 专利 句法 结构 知识 和 磁头 领域 知识 , 训练 得 到 磁头 领域 的 BERT 词 
嵌入 一 BERT-MH。 

(1) 用 于 继续 预 训练 的 专利 语 料 

本 实验 选择 Derwent Innovations Index (DII 德 温 特 创新 索引 ) 作为 BERT 模 
型 继续 预 训练 的 专利 语 料 来 ， 以 “magnetic head” 作 为 检索 词 ， 在 主题 字段 中 进 
行 检 索 , 共 得 到 44,705 条 专利 记录 (包含 标题 和 摘要 信息 ), 经 正则 匹配 、 筛选 、 
清洗 后 得 到 每 条 专利 记录 的 标题 和 摘要 文本 , 构成 磁头 领域 未 标注 的 专利 语料库 。 
最 终 得 到 的 语料库 大 小 为 48.7MB， 共 包含 431,210 条 句子 。 

(2) 面向 磁头 领域 的 BERT 模型 继续 预 训练 

本 文采 用 PyTorch 库 的 Transformers 模型 进行 BERT 模型 的 继续 预 训 练 。 将 
上 文 构建 的 磁头 领域 未 标注 专利 语 料 按 9:1 随机 划分 为 训练 集 和 验证 集 , 采用 论 
文中 的 建议 技巧 ， 从 现 有 的 BERT 检查 点 开始 ， 在 语 料 上 运行 其 他 预 训练 步 
又 。 继 续 预 训练 实验 中 的 部 分 重要 参数 设置 见 表 1。 


表 1 面向 磁头 领域 的 BERT 模型 继续 预 训练 实验 参数 设 定 


参数 参数 设 定 
max_seq_length 128 
train_batch_size 32 
eval_batch_size 8 
learning_rate Se-5 
num,_train_steps 100000 
num_warmup_steps 10000 


整个 训练 过 程 在 Linux 服务 器 Tesla V100 GPU 上 完成 。 训 练 完成 后 ， 便 获 
得 了 以 .bin 结尾 的 PyTorch 版 本 的 磁头 领域 BERT 模型 。 本 文 将 该 在 磁头 领域 未 
标注 专利 语 料 上 继续 预 训练 得 到 的 BERT 词 嵌 入 称 为 BERTMH， 用 于 后 续 的 知 
识 实体 识别 实验 和 知识 关系 抽取 实验 。 


4.1.3 知识 实体 识别 实验 


在 知识 实体 识别 实验 中 ， 将 TFH-2020 数据 集 在 文档 级 别 按 6:2:2 的 比例 随 

机 划分 为 训练 集 、 验 证 集 和 测试 集 ， 训 练 集 、 验 证 集 和 测试 集中 专利 文档 和 句子 
的 数量 分 布 情 况 如 表 2 所 示 。 
表 2 数据 集中 专利 文档 和 句子 的 数量 分 布 


数据 集 文档 数量 句子 数量 
训练 集 606 2567 
验证 集 202 878 


测试 集 202 786 


知识 实体 识别 实验 共 设计 了 两 个 实验 任务 : 模型 性 能 对 比 实验 和 标注 数据 依 
赖 性 实验 , 分 别 用 来 验证 该 技术 路 径 在 提升 模型 性 能 和 减少 对 标注 数据 依赖 性 上 
的 有 效 性 。 

(1) 模型 性 能 对 比 实验 

采用 BERT-softmax、BERT-CRF 典型 架构 构建 实体 识别 模型 ， 开 展 对 比 实 
验 ， 以 实现 最 优 性 能 。 实 验 要 素 设 置 如 表 3 所 示 。 为 实验 得 到 表现 最 佳 的 实体 识 
别 模型 , 将 上 述 不 同 的 实验 要 素 分 别 进行 组 合 , 一 共 得 到 4 个 深度 学 习 模型 进行 
实验 ， 模 型 在 实体 识别 任务 中 的 性 能 表现 如 表 4 所 示 。 其 中 BiLSTM-CRF+MH- 
46K 模型 是 TFH-2020 专利 数据 集 论文 中 采用 的 实体 识别 模型 。 


表 3 不 同 的 对 比 实验 要 素 


要 素 1 要 素 2 
BERT 预 训练 语言 模型 参数 。” BERT BERT-MH 
下 游 神经 网 络 softmax CRF 
表 4 实体 识别 模型 的 实体 识别 效果 

模型 设置 Precision Recall Fl 
BiLSTM-CRF+MH-46K 78.0% 78.0% 78.0% 
BERT+softmax 82.32% 84.00% 83.16% 
BERT-MH+softmax 82.76% 83.93% 83.34% 
BERT+CRF 84.44% 84.04% 84.24% 
BERT-MH+CRF 84.99% 84.87% 84.93% 


从 实验 结果 可 以 看 出 , BERTMH+CRF 模型 在 面向 薄膜 磁头 技术 领域 的 专利 
实体 识别 任务 中 实现 了 最 优 性 能 , 证 明 本 研究 提出 的 “ 预 训练 + 继续 预 训练 + 微调 ” 
技术 路 径 可 以 有 效 提 升 专利 实体 识别 模型 的 性 能 。 进一步 分 析 上 述 实验 结果 ,可 
以 得 到 以 下 3 点 结论 :1) 本 实验 采用 的 模型 架构 与 数据 集 论文 中 采用 的 BiLSTM- 
CRF+MH-46K 架构 相 比 有 较 大 的 性 能 提升 ， 在 一 定 程 度 上 说 明 动态 词 能 入 可 以 
比 静 态 词 嵌入 学 习 到 更 多 的 特征 知识 ; 2) 相同 下 游 神经 网 络 模型 下 ，BERT-MH 
模型 的 性 能 优 于 BERT 模型 ， 说 明 在 面向 领域 任务 时 ， 利 用 特定 领域 的 未 标注 语 
料 对 BERT 模型 进行 继续 预 训练 ， 是 提升 下 游 模 型 性 能 的 一 种 有 效 方式 ; 3) 相 
同 BERT 预 训练 语言 模型 下 ， CRF 模型 的 性 能 优 于 softmax, 说 明 面 向 具体 任务 
时 ， 依 旧 可 以 通过 融合 其 他 网 络 的 方式 改善 模型 的 性 能 。 

(2) 标注 数据 依赖 性 实验 

基于 上 述 性 能 表现 最 优 的 BERT_-MH+CRF 模型 ， 分 别 用 50%、40%、30%、 
20%、10% 的 标注 数据 重复 上 述 实 体 识别 实验 。 在 训练 过 程 中 ， 除 epochs 参数 有 
差异 外 , 模型 其 它 参 数 设置 均 相 同 。 采 用 微 平 均 和 宏 平均 两 种 方式 对 实体 识别 结 
果 进 行 评 估 ， 实 验 结果 如 表 $ 和 图 7 所 示 。 


表 5 不 同 标注 数据 体 量 下 模型 的 实体 识别 效果 


标注 数 Micro-average Macro-average 
i epochs 
据 体 量 Precision Recall Fl Precision Recall Fl 
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100% 10 84.99% 84.87% 84.93% 69.27% 68.38% 68.42% 


S50% 20 83.03% 84.35% 83.69% 58.05% 55.36% 55.50% 

40% S50 79.35% 79.66% 79.50% 64.74% 60.19% 60.94% 

30% 40 78.63% 79.54% 79.08% $55.62% 52.27% 52.45% 

20% 70 79.59% 81.27% 80.42% 56.73% 52.32% 52.77% 

10% 250 81.04% 81.22% 81.13% 46.41% 43.81% 44.40% 
100.00% 
90.00% 
80.00% 
70.00% 
60.00% 
50.00% 
40.00% 
30.00% 
20.00% 
10.00% 
0.00% 

100% 50% 20% 10% 
mw F1(Micro) mm F1(Macro) .………- 线性 (F1(Micro))………… 线性 (F1(Macro)) 


图 7 不 同 标注 数据 体 量 下 模型 的 实体 识别 效果 


从 表 5 和 图 7 中 可 以 观察 到 , 随 着 标注 数据 体 量 的 减 小 , 微 平均 评估 方式 下 
的 Fl 值 有 所 下 降 , 但 降幅 不 大 ; 宏 平 均 评估 方式 下 的 Fl 值 则 降幅 较 大 ,从 68.42% 
(全 部 标注 数据 〉 下降 到 44.40% “(10% 标注 数据 )。 这 在 一 定 程度 上 说 明 当 数据 
集 存 在 严重 不 均衡 的 问题 时 , 减少 标注 数据 的 体 量 , 对 样本 量 少 的 实体 类 别 影响 
较 大 。 但 总 体 上 可 以 认为 , 在 继续 预 训练 阶段 利用 大 规模 未 标注 的 领域 专利 语 料 
对 BERT 模型 进行 继续 预 训 练 ， 可 以 在 微调 阶段 减少 模型 对 标注 数据 的 依赖 。 


4.1.4 知识 关系 抽取 实验 


(1) 实体 对 生成 

以 句子 为 单位 遍历 生成 实体 对 (避免 实体 与 自身 组 合 ) 加 入 实体 对 候选 集中 ， 
再 利用 实体 对 生成 规则 对 实体 对 候选 集 进行 过 滤 , 删除 掉 显 然 不 可 能 形成 语义 关 
系 的 实体 对 ; 对 于 往 选 后 保留 的 实体 对 ， 与 句子 中 的 标准 关系 信息 进行 匹配 ， 生 
成 正确 的 关系 类 型 对 于 没有 任何 关系 类 型 标注 的 实体 对 , 则 为 其 分 配 没 有 关系 
的 特殊 类 型 。 上 述 操 作 后 ， 共 生成 了 205,119 个 用 于 关系 抽取 的 实体 对 ， 具 体 分 
布 情况 如 表 6 所 示 。 可 以 看 出 ，no_relation 类 型 的 实体 对 共有 183,140 个 ， 占 总 
数 的 89.3%， 关 系 类 型 的 样本 分 布 极端 不 平衡 ， 这 给 关系 抽取 模型 的 训练 带 来 了 
极 大 的 挑战 。 


表 6 数据 集中 实体 对 的 数量 分 布 


数据 集 实体 对 总 数 no_relation 类 型 的 实体 对 数量 
训练 集 122,890 110,873 
验证 集 40,423 36,161 
测试 集 41,806 36,106 
实验 采用 BERT-softmax 典型 架构 构建 关系 抽取 模型 。BERT 预 训 练 语言 模 


型 选择 原始 BERT 模型 和 继续 预 训练 得 到 的 磁头 领域 BERT-MH 模型 。 将 BERT 
模型 和 BERT-MH 模型 分 别 与 softmax 分 类 器 进行 组 合 ， 以 期 实验 得 出 最 佳 的 关 
系 抽取 模型 。 经 过 训练 后 ， 模 型 在 测试 数据 集 上 的 性 能 表现 如 表 7 所 示 。 其 中 
BiGRU-HAN 模型 是 TFH-2020 专利 数据 集 论文 中 所 采用 的 关系 识别 模型 。 


表 7 关系 抽取 模型 的 整体 评估 结果 


Precision Recall 上 1 
BiGRU-HAN 
. 87.9% 87.9% 87.9% 
with no_relation 
BiGRU-HAN 
. . 41.5% 41.5% 41.5% 
without no_relation 
BERT+softmax 
. 89.15% 89.15% 89.15% 
with no_relation 
BERT+softmax 
. 63.56% 63.56% 63.56% 
without no_relation 
BERT-MH+softmax 
. . 89.70% 89.70% 89.70% 
with no_relation 
BERT-MH+softmax 
63.70% 63.70% 63.70% 


without no relation 

表 7 中 的 “with no relation” 行 是 同时 考虑 “no _relation” 类 别 而 获得 的 评测 
数据 ， 在 BERT-MH+softmax 模型 上 Fl 值 达 到 了 89.7%。 但 是 ， 本 文 真正 关注 的 
是 表 7 中 “withoutno relation” 行 的 评测 结果 ， 它 们 更 真实 地 反映 了 模型 在 专利 
关系 抽取 任务 中 的 性 能 。 可 以 看 到 ，BERTMH+softmax 模型 在 该 任务 中 取得 了 
最 优 的 性 能 ，F1 值 为 63.7%， 略 高 于 BERT+softmax 模型 的 63.56%， 大 幅 高 于 
BiGRU-HAN 模型 的 41.5%。 这 说 明 : 采用 “ 预 训练 + 继续 预 训练 + 微调 ”的 技术 
路 径 可 以 有 效 提升 关系 抽取 模型 的 性 能 ; 与 通用 领域 的 BERT 词 嵌 入 相 比 ,特定 
领域 的 BERT 词 代 入 在 面向 领域 的 任务 中 能 更 好 地 提升 下 游 模 型 的 性 能 。 

同时 值得 一 提 的 是 ，BERTMH+softmax 关系 抽取 模型 的 Fl 表现 仍 没有 达 
到 关系 抽取 模型 的 上 游 水 平 ， 可 能 的 原因 如 下 : 1) 专利 文本 中 包含 的 实体 要 比 
通用 文本 多 得 多 ,导致 无 关系 实体 对 的 比例 比 普通 文本 大 得 多 , 给 模型 训练 带 来 
难度 。2) 流水 线 方法 的 错误 传播 问题 ， 错 误 的 实体 识别 结果 不 可 避免 地 会 导致 
语义 关系 抽取 的 错误 ， 降 低 模型 性 能 。 
4.2 薄膜 磁头 技术 领域 TRIZ 分 析 和 矩阵 构建 实证 研究 


应 用 上 述 薄 膜 磁 头 技 术 领 域 专利 知识 抽取 模型 一 一 BERT-MH+CRF 实体 识 
别 模型 和 BERT-MH+softmax 关系 抽取 模型 ， 开 展 薄 膜 磁 头 技术 领域 TRIZ 分 析 
矩阵 构建 实证 研究 。 
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4.2.1 薄膜 磁头 技术 领域 知识 图 谱 模 式 层 设计 


薄膜 磁头 技术 专利 的 主要 内 容 通常 是 关于 磁头 的 系统 结构 、 工 作 机 制 及 其 组 
成 部 分 的 位 置 、 属 性 、 材 料 构成 等 。 因 此 ， 对 应 于 薄膜 磁头 技术 领域 ， 技 术 问 题 
通常 指 专利 的 研究 对 象 ， 包括 物质 流 、 信 息 流 、 能 量 流 ; 技术 方案 通常 指 注 膜 磁 
头 的 系统 结构 ， 包 括 系 统 中 组 件 的 属性 、 形 状 、 材 料 、 位 置 等 ， 技术 功能 指 磁头 
系统 所 实现 的 功能 ， 技 术 效 果 指 系统 的 影响 、 效 果 ， 以 及 所 产生 的 结果 。 

在 此 基础 上 ， 本 文 参考 TFH-2020 数据 集中 定义 的 实体 和 关系 类 型 ， 明 确 薄 
膜 磁头 技术 领域 知识 图 谱 的 实体 类 别 为 : 物质 流 、 信 息 流 、 能 量 流 、 系 统 、 组 件 、 
属性 、 形 状 、 材 料 、 位 置 、 功 能、 效果 、 结 果 ， 共 12 类 知识 实体 。 知 识 实体 与 
技术 问题 、 技 术 方案 、 技 术 功 能 、 技 术 效果 4 大 知识 要 素 的 对 应 关系 见 表 8。 明 
确 薄 膜 磁头 技术 领域 知识 图 谱 的 关系 类 别 为 : 别名 、 位 置 关系 、 部 分 关系 、 因 果 
关系 、 构 造 、 属 性 、 以 .…… 方 式 、 形 成 、 操 作 、 目 的 ， 共 10 类 知识 关系 。 最 终 
构建 得 到 的 薄膜 磁头 技术 领域 知识 图 谱 概 念 模型 如 图 8 所 示 。 

表 8 语义 功能 类 型 与 实体 类 型 的 对 应 关系 


语义 功能 类 型 实体 类 型 


技术 问题 物质 流 、 信 息 流 、 能 量 流 

技术 方案 系统 、 组 件 、 属 性 、 形 状 、 材 料 、 位 置 
技术 功能 功能 

技术 效果 效果 、 结 果 


图 8 面向 TRIZ 分 析 算 阵 的 薄膜 磁头 技术 领域 知识 图 谱 概 念 模型 图 
4.2.2 薄膜 磁头 技术 领域 专利 数据 获取 


在 德 温 特 创新 索引 数据 库 中 以 “thinfilm magnetic head”( 注 膜 磁头 〉 作为 检 
索 词 ， 在 标题 字段 中 进行 检索 ， 共 检索 得 到 1732 篇 与 薄膜 磁头 技术 相关 的 专利 


记录 (包含 标题 和 摘要 信息 )。 经 数据 清洗 和 统计 后 , 得 到 文件 大 小 为 2.88MB 的 
专利 数据 文档 ， 作 为 薄膜 磁头 技术 领域 TRIZ 分 析 和 矩阵 构建 的 专利 语 料 。 该 语 料 
共 包 括 15,666 条 有 效 句 ，372,650 个 词 ， 句 子平 均 长 度 为 23.8 个 词 。 
4. 2.3 知识 实体 识别 和 关系 抽取 结 

完成 数据 预 处 理 后 ， 调 用 BERT-MH+CREF 模型 对 薄膜 磁头 技术 领域 专利 语 
料 开 展 实体 识别 , 识别 共 得 到 70,844 个 实体 , 实体 类 别 的 数量 分 布 如 表 9 所 示 。 
完成 实体 识别 后 ， 共 生成 335,596 个 实体 对 。 关 系 抽取 实验 调用 BERT- 
MH+tsoftmax 模型 进行 ， 识 别 得 到 的 关系 类 别 数 量 分 布 如 表 10 所 示 。 


表 9 实体 类 别 的 数量 分 布 


物质 流 422 位 置 7881 
言 息 流 352 形状 1587 
能 量 流 3456 材料 6434 
系统 2279 功能 3591 
组 件 37008 效果 1585 
属性 5995 结 254 
表 10 关系 类 别 的 数量 分 布 

位 置 关系 9243 因果 关系 914 
属性 7220 以 .方式 792 
目的 2379 构造 1598 
部 分 关系 9401 形成 427 
操作 1623 别名 597 

no _relation 301402 


4.2.4 注 膜 磁头 技术 领域 知识 图 谱 构 建 


对 上 述 知识 实体 和 知识 关系 的 抽取 结果 进行 简单 融合 ， 通 过 构建 实体 
ID Name 对 应 表 保 证 每 一 个 实体 都 有 唯一 的 DD 与 之 对 应 ， 简 单 去 重 后 得 到 的 实 
体 数量 为 14,014 个 ， 进 一 步 剔 除 “no relation” 关 系 后 ， 得 到 的 有 效 关 系数 量 为 
20,863 条 。 

将 去 重 后 得 到 的 实体 集合 和 关系 集合 结构 化 保存 并 赋予 相应 标签 , 录 为 CSV 
格式 文件 存储 。 利 用 Neo4j 图 数据 库 提供 的 neo4j-admin import 工具 批量 导入 
CSV 格式 的 实体 文件 和 关系 文件 ,成 功 导 入 14,014 个 实体 节点 和 20,863 个 关系 ， 
构建 得 到 的 薄膜 磁头 技术 领域 知识 图 谱 如 图 9( 左 ) 所 示 。 可 以 发 现 ， 薄 膜 磁头 
技术 领域 知识 图 谱 整 体 呈 现 聚 集 状 ， 只 有 少数 实体 关系 分 散在 周围 。 图 9 〈 右 ) 
则 展示 了 注 膜 磁头 技术 领域 知识 图 谱 的 实体 和 关系 结构 细节 。 
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9 薄膜 磁头 技术 领域 知识 图 谱 


4.2.5 薄膜 磁头 技术 领域 TR1Z 分 析 短 阵 构 建 


记录 密度 和 频率 是 评价 薄膜 磁头 性 能 的 重要 指标 , 基于 此 ， 本 文 围绕 “如 何 
提高 薄膜 磁头 的 记录 密度 和 频率 ”这 一 技术 创新 需求 开展 TRIZ 分 析 和 矩阵 构建 示 
范 。 首 先 , 明确 该 技术 创新 需求 奶 求 的 技术 功效 为 薄膜 磁头 的 高 记录 密度 和 频率 。 
因此 ， 以 “high recording density and frequency”( 高 记录 密度 和 频率 ) 作为 关键 
词 , 在 构建 得 到 的 薄膜 磁头 技术 领域 知识 图 谱 中 进行 查询 , 查询 语句 为 : “match(x) 
where x.name =' high recording density and frequency' return x”。 

查询 得 到 “高 记录 密度 和 频率 ”实体 ， 发 现 “ 发 明 的 薄膜 磁头 ”实体 与 该 实 
体 直 接 关 联 , 进一步 扩展 与 “发 明 的 薄膜 磁头 ?实体 相关 联 的 实体 , 发 现 * 宽度 和 

“磁极 部 分 ^“ 轨 道 变 罕 ”“ 示 意 结构 ”实体 与 其 直接 相关 ， 由 此 推断 磁极 部 分 
是 该 注 膜 磁头 实现 高 记录 密度 和 频率 的 关键 组 件 ， 于 是 继续 拓展 与 “磁极 部 分 ” 
实体 相关 联 的 实体 。 拓展 后 发 现 关 联 实体 较 多 , 于 是 人 工 对 关联 实体 的 相关 程度 
进行 判别 ,删除 关联 性 较 小 的 实体 ， 保 留 重 要 实体 。 经 上 述 关 系 扩展 和 数据 规范 
操作 后 ， 最 终 得 到 的 查询 结果 如 图 10 所 示 。 
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10” 注 膜 磁 头 技 术 领 域 知识 图 谱 查 询 结 果 


从 查询 结果 中 可 以 看 出 ,“ 高 记录 密度 和 频率 ”实体 与 “发 明 的 薄膜 磁头 ” 
实体 直接 相关 ,“ 发 明 的 薄膜 磁头 ”实体 又 与 “示意 结构 ”“ 磁 极 部 分 “宽度 和 
“轨道 变 窗 ”等 实体 直接 相关 。 因 此 ， 本 文 面向 上 述 重要 知识 实体 和 关系 构建 
TRIZ 分 析 和 矩阵 ， 构 建 结 果 如 表 11 所 示 。 


表 11 注 膜 磁头 技术 领域 TRIZ 分 析 和 矩阵 


发 明 的 注 | 示意 结构 | 磁极 部 分 | 宽度 轨道 变 窗 | 高 记录 密 
膜 磁头 (条 筑 ) (组 件 ) (属性 ) (结果 ) ”| 度 和 频率 


(组 件 ) 


(效果 ) 


发 明 的 薄 
膜 磁头 
(组 件 ) 


部 分 关系 


目的 


目的 


目的 


示意 结构 
(系统 ) 


部 分 关系 


伺 极 部 分 
(组 件 ) 


部 分 关系 


宽度 


(属性 ) 


目的 


轨道 变 鹤 
(结果 ) 


目的 


高 记录 密 
度 和 频率 
(效果 ) 


目的 


对 上 述 TRIZ 分 析 和 矩阵 进行 分 析 ， 可 以 发 现 “高 记录 密度 与 频率 ”的 效果 和 


“轨道 变 窗 ” 的 结果 “宽度 ”属性 同时 出 现 ， 而 上 述 目的 的 实验 实现 又 与 “ 落 
膜 磁头 ”的 “磁极 部 分 ”组 件 相 关 ， 这 提示 高 记录 密度 与 频率 可 能 与 磁极 部 分 轨 
道 的 宽度 有 关 , 减 小 薄膜 磁头 磁极 部 分 轨道 宽度 可 以 作为 提高 磁头 记录 密度 和 频 
率 的 探索 方向 之 一 。 

5 结语 


本 文 针 对 传统 人 工 构 建 系统 相互 作用 分 析 和 矩阵 存在 的 速度 慢 、 代 价 高 、 知 识 
要 素 不 足 等 问题 ， 提 出 TRIZ 分 析 和 矩阵 智能 构建 方法 研究 。 在 TRIZ 创新 理论 的 
指导 下 , 面向 特定 领域 拓展 系统 相互 作用 分 析 和 矩阵 的 知识 内 容 ， 定义 知识 实体 和 
关系 类 别 ， 完 成 面向 TRIZ 分 析 矩 阵 的 领域 知识 图 谱 模 式 层 设计 ;， 基 于“ 预 训练 
+ 继续 预 训 练 + 微调 ”的 技术 路 径 ,， 采用 BERT 预 训练 语言 模型 技术 ， 从 专利 文献 
中 自动 识别 知识 实体 和 关系 ,构建 领域 知识 图 谱 ， 面向 具体 需求 ， 从 领域 知识 图 
谱 中 自动 查询 和 读 取 所 需要 的 知识 实体 和 关系 ， 最终 实 现 TRIZ 分 析 和 矩阵 的 自动 
构建 。 经 实证 验证 ， 所 提出 的 方法 可 以 实现 TRIZ 分 析 和 矩阵 自动 构建 的 目标 ， 可 
以 为 技术 创新 提供 有 效 的 知识 支持 。 

但 本 研究 仍 存 在 一 定 的 局 限 性 : (1) 本 文 基 于 流水 线 方法 开展 实体 识别 和 关 
系 抽取 实验 , 存在 错误 传播 问题 等 问题 ; (2 ) 本文 在 基于 领域 知识 图 谱 构 建 TRIZ 
分 析 和 矩阵 的 过 程 中 , 主要 是 基于 交互 式 查 询 的 方式 获取 所 需 的 知识 实体 和 关系 信 
息 ,缺乏 知识 推理 技术 的 应 用 ， 无 法 揭示 实体 间 潜 在 的 知识 关联 ; (3) 本 文 构建 
的 TRIZ 分 析 和 矩阵 在 质量 上 仍 存 在 不 足 。 未 来 将 引入 知识 推理 技术 ， 深 入 挖 气 图 
谱 中 实体 间 潜 在 的 知识 关联 ， 提 高 TRIZ 分 析 和 矩阵 的 质量 ， 为 技术 创新 提供 更 多 
线索 。 
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